本文认为具有非线性耦合约束的多块非斜率非凸优化问题。通过开发使用信息区和提出的自适应制度的想法[J.Bolte,S。Sabach和M. Teboulle,NonConvex Lagrangian优化:监视方案和全球收敛性,运营研究数学,43:1210--1232,2018],我们提出了一种多键交替方向来解决此问题的多块交替方向方法。我们通过在每个块更新中采用大量最小化过程来指定原始变量的更新。进行了独立的收敛分析,以证明生成的序列与增强Lagrangian的临界点的随后和全局收敛。我们还建立了迭代复杂性,并为所提出的算法提供初步的数值结果。
translated by 谷歌翻译
在本文中,我们提出了一个算法框架,称为乘数的惯性交替方向方法(IADMM),用于求解与线性约束线性约束的一类非convex非conmooth多块复合优化问题。我们的框架采用了一般最小化 - 更大化(MM)原理来更新每个变量块,从而不仅统一了先前在MM步骤中使用特定替代功能的AMDM的收敛分析,还导致新的有效ADMM方案。据我们所知,在非convex非平滑设置中,ADMM与MM原理结合使用,以更新每个变量块,而ADMM与\ emph {Primal变量的惯性术语结合在一起}尚未在文献中研究。在标准假设下,我们证明了生成的迭代序列的后续收敛和全局收敛性。我们说明了IADMM对一类非凸低级别表示问题的有效性。
translated by 谷歌翻译
在本文中,我们介绍了泰坦(Titan),这是一种新型的惯性块最小化框架,用于非平滑非凸优化问题。据我们所知,泰坦是块坐标更新方法的第一个框架,该方法依赖于大型最小化框架,同时将惯性力嵌入到块更新的每个步骤中。惯性力是通过外推算子获得的,该操作员累积了重力和Nesterov型加速度,以作为特殊情况作为块近端梯度方法。通过选择各种替代功能,例如近端,Lipschitz梯度,布雷格曼,二次和复合替代功能,并通过改变外推操作员来生成一组丰富的惯性块坐标坐标更新方法。我们研究了泰坦生成序列的子顺序收敛以及全局收敛。我们说明了泰坦对两个重要的机器学习问题的有效性,即稀疏的非负矩阵分解和矩阵完成。
translated by 谷歌翻译
3D hand pose estimation from RGB images suffers from the difficulty of obtaining the depth information. Therefore, a great deal of attention has been spent on estimating 3D hand pose from 2D hand joints. In this paper, we leverage the advantage of spatial-temporal Graph Convolutional Neural Networks and propose LG-Hand, a powerful method for 3D hand pose estimation. Our method incorporates both spatial and temporal dependencies into a single process. We argue that kinematic information plays an important role, contributing to the performance of 3D hand pose estimation. We thereby introduce two new objective functions, Angle and Direction loss, to take the hand structure into account. While Angle loss covers locally kinematic information, Direction loss handles globally kinematic one. Our LG-Hand achieves promising results on the First-Person Hand Action Benchmark (FPHAB) dataset. We also perform an ablation study to show the efficacy of the two proposed objective functions.
translated by 谷歌翻译
脑电图(EEG)信号是用于癫痫发作分析的有效工具,其中最重要的挑战之一是对癫痫发作或发起的癫痫发作事件和大脑​​区域的准确检测。但是,所有基于机器学习的癫痫发作分析算法都需要访问标记的癫痫发作数据,同时获取标记的数据是非常劳动密集型,昂贵的,并且鉴于EEG信号的视觉定性解释的主观性质。在本文中,我们建议以自我监督的方式检测癫痫发道和剪辑,在这种方式中不需要访问癫痫发作数据。所提出的方法考虑了通过使用正和负子图的局部结构和上下文信息,这些信息嵌入了EEG图中。我们通过最大程度地减少对比度和生成性损失来训练我们的方法。当地脑电图子图的使用使该算法在访问所有脑电图通道时成为适当的选择,这是由于诸如颅骨骨折之类的并发症。我们对最大的癫痫发作数据集进行了一系列广泛的实验,并证明我们提出的框架在基于EEG的癫痫发作研究中优于最新方法。提出的方法是唯一需要在其训练阶段访问癫痫发作数据的研究,但可以建立一个新的领域最新技术,并且胜过所有相关的监督方法。
translated by 谷歌翻译
尽管将发票内容作为元数据存储以避免纸质文档处理可能是未来的趋势,但几乎所有每日发行的发票仍在纸上打印或以PDF等数字格式生成。在本文中,我们介绍了从扫描文档图像中提取信息的OCRMiner系统,该系统基于文本分析技术与布局功能结合使用(半)结构化文档的索引元数据。该系统旨在以人类读者使用的类似方式处理文档,即在协调决策中采用不同的布局和文本属性。该系统由一组互连模块组成,该模块以(可能是错误的)基于字符的输出从标准OCR系统开始,并允许应用不同的技术并在每个步骤中扩展提取的知识。使用开源OCR,该系统能够以90%的英语恢复发票数据,而捷克设置的发票数据为88%。
translated by 谷歌翻译
深度学习在许多应用中取得了巨大成功。然而,其在实践中的部署已经受到两个问题的困扰:由于通常在地理上分布的大量数据传输,必须集中聚合的数据的隐私。解决这两个问题都是具有挑战性的,并且大多数现有工程无法提供有效的解决方案。在本文中,我们开发FEDPC,是隐私保存和沟通效率的联邦深度学习框架。该框架允许在多个私有数据集中学习模型,同时不显示培训数据的任何信息,即使是中间数据。该框架还可以最大限度地减少更新模型的数据量。我们正式证明培训FEDPC及其隐私保留财产时学习模型的融合。我们对大量实验进行了广泛的实验,以评估FEDPC的性能,以近似到上限的性能(培训集中时)和通信开销。结果表明,当数据分配到10个计算节点时,FEDPC在8.5 \%$ 8.5 \%$ 8.5 \%$ 8.5 \%$ 8.5 \%$ 8.5 \%$ 8.5 \%。与现有工程相比,FEDPC还将通信开销降低至42.20±20美元。
translated by 谷歌翻译
Air pollution is an emerging problem that needs to be solved especially in developed and developing countries. In Vietnam, air pollution is also a concerning issue in big cities such as Hanoi and Ho Chi Minh cities where air pollution comes mostly from vehicles such as cars and motorbikes. In order to tackle the problem, the paper focuses on developing a solution that can estimate the emitted PM2.5 pollutants by counting the number of vehicles in the traffic. We first investigated among the recent object detection models and developed our own traffic surveillance system. The observed traffic density showed a similar trend to the measured PM2.5 with a certain lagging in time, suggesting a relation between traffic density and PM2.5. We further express this relationship with a mathematical model which can estimate the PM2.5 value based on the observed traffic density. The estimated result showed a great correlation with the measured PM2.5 plots in the urban area context.
translated by 谷歌翻译
尽管在过去的几年中取得了重大进展,但歧义仍然是面部表情识别(FER)的关键挑战。它可能导致嘈杂和不一致的注释,这阻碍了现实世界中深度学习模型的性能。在本文中,我们提出了一种新的不确定性标签分布学习方法,以提高深层模型的鲁棒性,以防止不确定性和歧义。我们利用价值空间中的邻里信息来适应培训训练样本的情绪分布。我们还考虑提供的标签将其纳入标签分布时的不确定性。我们的方法可以轻松地集成到深层网络中,以获得更多的培训监督并提高识别准确性。在各种嘈杂和模棱两可的环境下,在几个数据集上进行了密集的实验表明,我们的方法取得了竞争成果,并且超出了最新的最新方法。我们的代码和模型可在https://github.com/minhnhatvt/label-distribution-learning-fer-tf上找到。
translated by 谷歌翻译
组织病理学图像的出现取决于组织类型,染色和数字化过程。这些因素因来源而异,是域转移问题的潜在原因。由于这个问题,尽管深度学习模型在计算病理学中取得了巨大的成功,但在特定领域训练的模型当我们将其应用于另一个领域时,仍可能会表现出色。为了克服这一点,我们提出了一种称为PatchShuffling的新扩展,并为预训练的深度学习模型而被称为Impash的新型自我监视的对比学习框架。使用这些,我们获得了一个RESNET50编码器,该编码器可以提取对域移位抗性的图像表示。我们通过使用其他域普通化技术来比较了我们的派生表示形式,它们通过将它们用于结直肠组织图像的跨域分类。我们表明,所提出的方法优于其他传统的组织学领域适应和最先进的自我监督学习方法。代码可在以下网址获得:https://github.com/trinhvg/impash。
translated by 谷歌翻译